准备知识:
编程语言:Python,C++,Spark(大数据环境下); 知识储备:英语、线性代数、概率论、图论、神经科学。
<!--more-->
第一步 统领大局:
建立大局观,是入门第一要务; 从宏观了解机器学习的全貌; 机器学习:根据已有特征,选择模型,训练模型,预测未知数据; 推荐书籍: -《图解机器学习》:通俗易懂,算法图解,入门必备; -《集体智慧编程》:代码实现,一个字“敲”; -《机器学习(周志华西瓜书)》:系统严谨,数学推导;
第二步 了解算法:
看遍所有算法原理,主要书籍:《机器学习(周志华)》;
coursera
上Andrew NG的机器学习公开课,网易云也开了; 邹博的《机器学习实战》; 李沐《一起动手学习深度学习》; 必学:线性回归,Logistics回归,决策树。
第三步 利用框架:
利用
scikit-learn
实现所学的算法(推荐鸢尾花分类、MNIST分类)
第四步 神经网络:
看懂
Tensorflow
官网demo:RNN、CNN、GAN; 莫凡Tensorflow
;
第五步 实操演练:
注册
kangle
,奋斗吧! 上线一个小模型(django+scikit-learn)
第六步 关注落地:
机器学习MVP开发; 针对小规模,有质量、已标注的数据进行训练; 明确需求、特征量化、目标量化、特征清洗、模型选型、模型训练、线下验证、模型上线、特征清洗、模型预测、结果应用、运行监控;
实例一:客户动用率预测:
明确需求:与业务同事讨论本次需求的目标是什么,这里说的就是动用率预测; 特征量化:选出可能有影响的特征,如:年龄,性别,近三个月是否动用等; 目标量化:选择是否动用为目标; 特征清洗:样本筛选,缺失值补全,利用先验知识去掉明显不符合常理的数据; 模型选择:直接丢个逻辑回归试试看; 模型训练:看训练集和测试集,讨论出一个精准度即可; 模型上线:丢上线去跑跑看,看看结果,暂时不接入关键流程即可。
实例二:客户逾期率预测:
明确需求:与业务同事讨论本次需求的目标是什么,这里说的就是逾期率预测; 特征量化:选出可能有影响的特征,如:年龄,性别,近三个月是否逾期等; 目标量化:选择客户是否逾期作为目标; 特征清洗:样本筛选,缺失值补全,利用先验知识去掉明显不符合常理的数据; 模型选择:直接丢个softmax回归试试看; 模型训练:看训练集和测试集,讨论出一个精准度即可; 模型上线:丢上线去跑跑看,看看结果,暂时不接入关键流程即可。
实例三:客户风险级别预测:
明确需求:与业务同事讨论本次需求的目标是什么,这里说的就是风险级别预测; 特征量化:选出可能有影响的特征,如:年龄,性别,近三个月是否逾期等; 目标量化:选择预期风险等级作为目标; 特征清洗:样本筛选,缺失值补全,利用先验知识去掉明显不符合常理的数据; 模型选择:直接丢个决策树试试看; 模型训练:看训练集和测试集,讨论出一个精准度即可; 模型上线:丢上线去跑跑看,看看结果,暂时不接入关键流程即可。
第七步 补充数学:
《概率论与数理统计》陈希孺 《线性代数应该这样学》
第八步 特征工程:
好的特征决是成功的一半; 特征选择,特征清洗,决定模型的上限,算法和优化只是不断趋近这个上限; 特征工程非常重要。
第九步 深入前沿:
深入了解前沿的底层原理 阅读实践优秀论文,如:MapReduce原理的,李沐Parameter原理的,GAN原理的,LPA原理的……
书单:
《深入浅出统计学》 《深入浅出数据分析》 《大数据智能》 《深度学习》 《优雅的理性》 《创新者的窘境》 《数学之美》